Top des produits IA

Top des produits IA

Recherchez la dynamique mondiale des produits IA

Recherchez des informations sur l'IA mondiale et découvrez de nouvelles opportunités d'IA

Actualités
Applications de produits
Études de monétisation
Tutoriels IA

Type :

Actualités
Applications de produits
Études de monétisation
Tutoriels IA

2025-01-16 10:42:26.AIbase

L'équipe Qwen d'Alibaba publie un nouveau modèle de récompense de processus, faisant évoluer le raisonnement mathématique

L'équipe Qwen d'Alibaba a récemment publié un article intitulé « Leçons apprises sur le développement d'un modèle de récompense de processus pour le raisonnement mathématique » et a présenté deux nouveaux modèles de la série Qwen2.5-Math-PRM, avec 7B et 72B paramètres respectivement. Ces modèles dépassent les limites des frameworks PRM existants en matière de raisonnement mathématique, améliorant considérablement la précision et les capacités de généralisation des modèles de raisonnement grâce à des techniques innovantes. Le raisonnement mathématique représente un défi majeur pour les grands modèles de langage (LLM), en particulier dans les étapes intermédiaires du raisonnement, où des erreurs...

L'équipe Qwen d'Alibaba publie un nouveau modèle de récompense de processus, faisant évoluer le raisonnement mathématique

2024-12-15 10:23:35.AIbase

Alibaba lance PROCESSBENCH, un nouveau benchmark IA pour évaluer la capacité de détection d'erreurs dans le raisonnement mathématique

Les chercheurs de l'équipe Qwen d'Alibaba ont récemment lancé un nouveau benchmark appelé "PROCESSBENCH", conçu pour mesurer la capacité des modèles linguistiques à identifier les erreurs de procédure dans le raisonnement mathématique. Alors que les modèles linguistiques progressent de manière significative dans les tâches de raisonnement complexes, les chercheurs de ce domaine ont constaté que, malgré d'excellentes performances, ces modèles rencontrent encore des difficultés avec certains problèmes ardus. Par conséquent, le développement d'une méthode de supervision efficace est particulièrement important. Actuellement, les benchmarks d'évaluation pour les modèles linguistiques présentent certaines lacunes.

Alibaba lance PROCESSBENCH, un nouveau benchmark IA pour évaluer la capacité de détection d'erreurs dans le raisonnement mathématique

2024-10-14 14:51:30.AIbase

L'équipe de recherche d'Apple publie une nouvelle référence GSM-Symbolic : révélant les lacunes du raisonnement mathématique des grands modèles de langage !

Récemment, les chercheurs d'Apple ont mené une étude approfondie sur les capacités de raisonnement mathématique des grands modèles de langage (LLM), et ont présenté un nouveau benchmark nommé GSM-Symbolic. Ce nouveau benchmark est une évolution de GSM8K, principalement utilisé pour évaluer les compétences mathématiques de base. Bien que de nombreux LLM aient montré des améliorations sur GSM8K, la communauté scientifique reste sceptique quant aux capacités de raisonnement de ces modèles, estimant que les indicateurs d'évaluation actuels pourraient ne pas refléter pleinement leurs capacités réelles. L'étude révèle...

L'équipe de recherche d'Apple publie une nouvelle référence GSM-Symbolic : révélant les lacunes du raisonnement mathématique des grands modèles de langage !

2024-10-12 14:59:01.AIbase

L'équipe de recherche sur l'IA d'Apple découvre une faiblesse dans le raisonnement des grands modèles : une seule phrase pour mettre KO OpenAI o1

Dans le monde de l'intelligence artificielle, la capacité de raisonnement des modèles d'apprentissage automatique, en particulier les grands modèles de langage (LLM), est un sujet de préoccupation constant pour les scientifiques. Récemment, l'équipe de recherche sur l'IA d'Apple a publié un article intitulé « Comprendre les limites des grands modèles de langage en matière de raisonnement mathématique », qui nous révèle les limites de ces modèles lorsqu'il s'agit de traiter des problèmes logiques. Dans l'article, les chercheurs illustrent ce point à l'aide d'un problème mathématique simple. Ils présentent d'abord un problème concernant Oliver qui cueille des kiwis : comme indiqué ci-dessous : Oliver a cueilli 44 kiwis le vendredi...

L'équipe de recherche sur l'IA d'Apple découvre une faiblesse dans le raisonnement des grands modèles : une seule phrase pour mettre KO OpenAI o1

2024-07-19 16:36:43.AIbase

DeepSeek publie le modèle DeepSeek-V2-Chat-0628 : code et capacités de raisonnement mathématique améliorés

Le classement récent de l'arène de chatbot LMSYS montre que DeepSeek-V2-0628, classé 11ème au classement général de LMSYS Chatbot Arena, dépasse de nombreux modèles open source tels que Llama3-70B, Qwen2-72B, Nemotron-4-340B et Gemma2-27B, se positionnant ainsi en tête du classement mondial des modèles open source. Par rapport à la version 0507, DeepSeek-V2-0628 présente des améliorations significatives en matière de codage, de raisonnement mathématique, de suivi d'instructions, de jeu de rôle et de JS.

DeepSeek publie le modèle DeepSeek-V2-Chat-0628 : code et capacités de raisonnement mathématique améliorés